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1 . Dieser Internationale vorlaufige Prufungsbericht wurde von der mit der intemationalen vorlaufigen Pruf ung beauftragten 
Behorde erstellt und wird dem Anmelder gemaB Artikel 36 ubermittelt. 



2. Dieser BERICHT umfaBt insgesamt 4 Blatter einschlieBlich dieses Deckblatts. 
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Grundlage des Berichts 
Prioritat 

Keine Erstellung eines Gutachtens uber Neuheit, erfinderische Tatigkeit und gewerbliche Anwendbarkeit 
Mangelnde Einheitlichkeit der Erfindung 

Begrundete Feststellung nach Artikel 35(2) hinsichtlich der Neuheit, der erfinderischen Tatigkeit und der 
gewerblichen Anwendbarkeit; Unterlagen und Erklarungen zur Stutzung dieser Feststellung 

Bestimmte angefuhrte Unterlagen 

Bestimmte Mangel der intemationalen Anmeldung 

Bestimmte Bemerkungen zur intemationalen Anmeldung 
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INTERNATIONALER VORLAUFIGER 
PRUFUNGSBERICHT 



Internationales Aktenzeichen PCT/DE99/02846 



I. Grundlage des Berichts 

1 . Dieser Bericht wurde erstellt auf der Grundlage {Ersatzblatten die dem Anmeldeamt auf eine Aufforderung nach 
Artikel 14 hin vorgelegt warden, getten im Rahmen dieses Benefits ais "ursprunglich eingereiclit" and sind itim 
nicht beigefugt, weil sie f<eine Anderungen enthalten.)\ 
Beschreibung, Seiten: 

1-28 ursprungliche Fassung 

Patentanspruche, Nr.: 

1-21 ursprungliche Fassung 

Zeichnungen, Blatter: 

1-4 ursprungliche Fassung 



2. Hinsichtlich der Sprache: Alle vorstehend genannten Bestandteile standen der Behorde in der Sprache, in der 
die internationale Anmeldung eingereicht worden ist, zur Verfugung Oder wurden in dieser eingereicht. sofern 
unter diesem Punkt nichts anderes angegeben ist. 

Die Bestandteile standen der Behorde in der Sprache: zur Verfugung bzw. wurden in dieser Sprache 
eingereicht; dabei handelt es sich urn 

□ die Sprache der Ubersetzung, die fur die Zwecke der internationalen Recherche eingereicht worden ist (nach 
Regel 23.1(b)). 

□ die Veroffentlichungssprache der internationalen Anmeldung (nach Regel 48.3(b)). 

□ die Sprache der Ubersetzung, die fur die Zwecke der internationalen vorlaufigen Prufung eingereicht worden 
ist (nach Regel 55.2 und/oder 55.3). 

3. Hinsichtlich der in der internationalen Anmeldung offenbarten Nucleotid- und/oder Aminosauresequenz ist die 
internationale vorlaufige Prufung auf der Grundlage des Sequenzprotokolls durchgefuhrt worden, das; 

□ in der internationalen Anmeldung in schriftlicher Form enthalten ist. 

□ zusammen mit der internationalen Anmeldung in computerlesbarer Form eingereicht worden ist. 

□ bei der Behorde nachtraglich in schriftlicher Form eingereicht worden ist. 

□ bei der Behorde nachtraglich in computerlesbarer Form eingereicht worden ist. 

□ Die Erklarung, daB das nachtraglich eingereichte schriftliche Sequenzprotokoll nicht uber den 
Offenbarungsgehalt der internationalen Anmeldung im Anmeldezeitpunkt hinausgeht, wurde vorgelegt. 

□ Die Erklarung, daB die in computerlesbarer Form erfassten Informationen dem schriftlichen 
Sequenzprotokoll entsprechen, wurde vorgelegt. 

4. Aufgrund der Anderungen sind folgende Unterlagen fortgefallen: 



Formblatt PCT/IPEA/409 (Felder I-VIli, Blatt 1) (Jul) 1998) 



INTERNATIONALER VORLAUFIGER 
PRUFUNGSBERICHT 



Internationales Aktenzeichen PCT/DE99/02846 



□ Beschreibung, Seiten: 

□ Anspruche, Nr.: 

□ Zeichnungen, Blatt: 

5. □ Dieser Bericht ist ohne Berucksichtigung (von einigen) der Anderungen erstellt worden. da diese aus den 

angegebenen Grunden nach Auffassung der Behorde uber den Offenbarungsgehalt in der ursprunglich 
eingereichten Fassung hinausgehen (Regel 70.2(c)). 

(Auf Ersatzblatter, die solche Anderungen enthalten, ist unterPuni<t 1 hinzuweisen;sie sinddiesem Bericht 
beizufugen), 

6. Etwaige zusatzliche Bemerkungen: 

V. Begrundete Feststellung nach Artikel 35(2) hinsichtlich der Neuheit, der erfinderischen Tatigkeit und der 
gewerblichen Anwendbarkeit; Unterlagen und Erklarungen zur Stiitzung dieser Feststellung 

1. Feststellung 

Neuheit (N) Ja: Anspruche 1-21 

Nein: Anspruche 

Erfinderische Tatigkeit (ET) Ja: Anspruche 1-21 

Nein: Anspruche 

Gewerbliche Anwendbarkeit (GA) Ja: Anspruche 1-21 

Nein: Anspruche 

2. Unterlagen und Erklarungen 
siehe Beiblatt 

VII. Bestimmte Mangel der internationalen Anmeldung 

Es wurde festgestellt, daB die Internationale Anmeldung nach Form oder Inhalt folgende Mangel aufweist: 
siehe Beiblatt 
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INTERNATIONALER VORLAUFIGER 
PRUFUNGSBERICHT - BEIBLATT 



Internationales Aktenzeichen PCT/DE99/02846 



Zu Punkt V: 



2 



3 



Die in dem Internationalen Recherchenbericht zitierten Dokumente in der darin 
enthaltenen Reihenfolge werden als D1 , D2 und D3 bezeichnet. 

D1 offenbart ein Verfahren zur Ennittlung einer Folge von Aktionen fur ein 
System, welches Zustande aufweist, wobei ein Zustandsubergang zwischen zwei 
Zustanden aufgrund einer Aktion erfolgt. 

D2 offenbart ein Verfahren im Kontext von Softwarebenutzung, siehe Abstract, 
ebenfalls Teil 1 , Introduction. D2 offenbart insbesondere die Beriicksichtigung 
eines Risikos (failure risk, Seite 185. 2. Absatz), sowie die Berucksichtigung eines 
einstellbaren Parameters (usage distribution, i.e. the frequence of invocation of 
critical operations) zum Zweck der Optimierung. Die Zielsetzung bei D2 ist jedoch, 
die Ubergangswahrscheinlichkeiten fur Systemubergange zu andern, so daB 
kritische Systemoperationen oft genug getestet werden, und die Risikoschatzung 
mit hochstmoglicher Prazision stattfindet. D2 betrifft nicht die Ermittlung einer 
Folge von Aktionen. Auch aus D1 erhalt der Fachmann keinen Hinweis, ein 
Dokument mit dem Inhalt von D2 zu konsultieren. DemgemaB ware es wegen der 
unterschiedlichen Zielsetzung fraglich, ob der Fachmann das Dokument D2 
hinzuziehen wurde. 

Aus diesen Grunden erfullen die Anspriiche 1 und 15 die Erfordernisse des 
Artikels 33 PCT. Diese SchluBfolgerung gilt ebenfalls fur die abhangigen 
Anspriiche. 



Die gegenwartige Formulierung der Anspruche 1-6 laBt erkennen, daB der 
Gegenstand dieser Anspruche u.U. unter die Bestimmungen des Artikels 
34(4)(a)(i) und der Regel 67.1 (i) PCT (mathematische Verfahren) fallt. 



Zu Punkt VII: 
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PATENT COOPERATION TI»TY 

PCT 

INTERNATIONAL PRELIMINARY EXAMINATION REPORT 

(PCT Article 36 and Rule 70) 



Applicant's or agent's file reference 
GR 98P2663P 


SeeNotificationofTransmittaloflntemational Preliminary 
FOR FURTHER ACTION Examination Report (Form PCT/IPEA/4 1 6) 


International application No. 


International filing date {day/month/year) 


Priority date {day/month/year) 


PCT/DE99/02846 


08 September 1999 (08.09.99) 


23 September 1998 (23.09.98) 


International Patent Classification (IPC) or national classification and IPC 




G06F 17/60 






Applicant 

SIEMENS AKTIENGESELLSCHAFT 



This international preliminary examination report has been prepared by this International Preliminary Examining Authority 
and is transmitted to the applicant according to Article 36. 



2. This REPORT consists of a total of 



sheets, including this cover sheet. 



□ This report is also accompanied by ANNEXES, i.e., sheets of the description, claims and/or drawings which have been 
amended and are the basis for this report and/or sheets containing rectifications made before this Authority (see Rule 
70.16 and Section 607 of the Administrative Instructions under the PCT). 



These annexes consist of a total of _ 



sheets. 



This report contains indications relating to the following items: 
Basis of the report 
Priority 

Non-establishment of opinion with regard to novelty, inventive step and industrial applicability 
Lack of unity of invention 

Reasoned statement under Article 35(2) with regard to novelty, inventive step or industrial applicability; 
citations and explanations supporting such statement 



II 


□ 


III 


□ 


IV 


□ 


V 




VI 


□ 


VII 




VIII 


□ 



Certain documents cited 

Certain defects in the international application 

Certain observations on the international application 



RECEIVED 

jiU 0 2 2001 
Technology center 21 00 



Date of submission of the demand 

11 April 2000(11.04.00) 


Date of completion of this report 

21 December 2000 (21.12.2000) 


Name and mailing address of the IPEA/EP 
Facsimile No. 


Authorized officer 
Telephone No, 



Form PCT/IPEA/409 (cover sheet) (July 1998) 



INTERNATIONAL PRELIMINARY EXAMINATION REPORT 



International application No. 

PCT/DE99/02846 



I. Basis of the report 



1. With regard to the elements of the international application:* 
I I the international application as originally filed 

the description: 

pages 1-28 

pages 

pages 



, as originally filed 
, filed with the demand 



, filed with the letter of 



the claims: 

pages 

pages 

pages 
pages 



1-21 



, as originally filed 

, as amended (together with any statement under Article 19 

, filed with the demand 



filed with the letter of 



the drawings: 

pages 

pages 

pages 



1-4 



, as originally filed 



, filed with the demand 



filed with the letter of 



I I the sequence listing part of the description: 
pages 

pages 

pages 



, as originally filed 



. , filed with the demand 



filed with the letter of 



With regard to the language, all the elements marked above were available or fiimished to this Authority in the language in which 
the international application was filed, unless otherwise indicated under this item. 

These elements were available or furnished to this Authority in the following language which is: 

I I the language of a translation furnished for the purposes of international search (under Rule 23. 1 (b)). 

□ 

the language of publication of the international application (under Rule 48.3(b)), 

the language of the translation fiimished for the purposes of international preliminary examination (under Rule 55.2 and/ 
or 55.3). 



With regard to any nucleotide and/or amino acid sequence disclosed in the international application, the international 
preliminary examination was carried out on the basis of the sequence listing: 

contained in the international application in written form. 

filed together with the international application in computer readable form. 

furnished subsequently to this Authority in wriuen form. 

furnished subsequently to this Authority in computer readable form. 

The statement that the subsequently fiimished written sequence listing does not go beyond the disclosure in the 
international application as filed has been fiimished. 

The statement that the information recorded in computer readable form is identical to the written sequence listing has 



□ 
□ 
□ 
□ 
□ 

□ 
□ 



been furnished. 



The amendments have resulted in the cancellation of: 

I ! the description, pages 

I I the claims, Nos. 

I I the drawings, sheets/fig 



^ I I This report has been established as if (some of) the amendments had not been made, since they have been considered to go 
' — ' beyond the disclosure as filed, as indicated in the Supplemental Box (Rule 70.2(c)).** 

* Replacement sheets which have been furnished to the receiving Ojjice in response to an invitation under Article 14 are referred to 
in this report as "originally fded" and are not annexed to this report since they do not contain amendments (Rule 70 J 6 
and 70.17). 

** Any replacement sheet containing such amendments must be referred to under item I and annexed to this report. 



Form PCT/IPEA/409 (Box I) (July 1998) 



INTkERNATIONAL PRELIMINARY EXAMINATION REPORT 



international application No. 
PCT/DE 99/02846 



V. Reasoned statement under Article 35(2) with regard to novelty, inventive step or industrial applicability; 
citations and explanations supporting such statement 



Statement 
Novelty (N) 

Inventive step (IS) 
Industrial applicability (lA) 



Claims 
Claims 

Claims 
Claims 

Claims 
Claims 



1-21 



1-21 



1-21 



YES 
NO 
YES 
NO 

YES 
NO 



2. Citations and explanations 



1 The documents cited in the international search 
report are referred to as Dl, D2 and D3, in the 
order of their listing therein. 

2 Dl discloses a method for the determination of a 
sequence of actions for a system which comprises 
statuses, with a status transition between two 
statuses taking place because of an action. 

3 D2 discloses a method in the context of software use 
- see abstract and also part 1, Introduction. D2 
discloses in particular the consideration of a risk 
(failure risk, page 185, second paragraph) and the 
consideration of an adjustable parameter (usage 
distribution, i.e. the frequency of invocation of 
critical operations) for optimisation. The objective 
in D2, however, is to change the transition 
probabilities of system transitions, and hence 
critical system operations are tested often enough 
and that a risk estimation of the highest possible 
precision takes place. D2 does not apply to the 
determination of a sequence of actions. Neither does 
Dl suggest to a person skilled in the art to consult 



Form PCT/IPEA/409 (Box V) (January 1994) 



INTERNATIONAL PRELIMINARY EXAMINATION REPORT 



^Hjknternational application No. 
PCT/DE 99/02846 



different objectives it would therefore be doubtful 
whether the person skilled in the art would refer to 
D2 . 



4 Because of these reasons Claims 1 and 15 meet the 

requirements of PCT Article 33. This conclusion also 
applies to the dependent claims. 



RECEIVED 

jV)V. 0 2 2001 
Techno\ogV center 2100 



Form PCT/IPEA/409 (Box V) (Januar>' 1994) 



INTERNATIONAL PRELIMINARY EXAMINATION REPORT 

-A. ~ 



j|||||^rnational application No. 
PCT/DE 99/02846 



VII. Certain defects in the international application 



The following defects in the form or contents of the international application have been noted: 



1 By the present wording of Claims 1-6 the subject 

matter of these claims may possibly come under the 
terms of PCT Article 33(4) (a) (i) and PCT Rule 67.1 
(mathematical theories) . 
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GR 98 P 2663 



1 

Beschrelbung 

Verfahren und Anordnung zur Erml'b'blung elner Folge von Alcblo- 
nen fiir ein System, welches Zustande aufweist, wobel e±n Zu- 
5 standsubergang zwlschen zwel Zustanden aufgrund einer Aktion 
erf olgfc 

Die Erfindung betrifft ein Verfahren sowie eine Anordnung zur 
Ermittlung einer Folge von Aktionen ftir ein System, welches 
10 Zustande aufweist, wobei ein Zustandsiibergang zwischen zwei 
Zustanden aufgrund einer Aktion erfolgt. 

Ein solches Verfahren und eine solche Anordnung sind aus [1] 
bekannt . 

15 

In [1] ist als Beispiel fiir ein solches System, welches Zu- 
stande aufweist, ein Finanzmarkt beschrieben. 

Das System wird als ein Markov-Entscheidungsproblem beschrie- 
20 ben (Markov-Decision-Problem, MDP) . Ein System, welches als 
Markov-Entscheidungsproblem beschrieben werden kann, ist in 
seiner Struktur in Fig. 2 dargestellt. 

Zu einem Zeitpunkt t befindet sich das System 201 in einem 
25 Zustand Xf Der Zustand xt ist fur einen Beobachter des Sy- 
stems beobachtbar, Aufgrund einer Aktion a^ aus einer Menge 
in dem Zustand x^ moglicher Aktionen, at e A(xt) geht das 
System mit einer gewissen Wahrscheinlichkeit in einen Folge- 
zustand x^+i zu einem Folgezeitpunkt t+1 liber. 

30 

Dies ist durch eine Schleife in Fig. 2 symbolisch dargestellt. 
Ein Beobachter 200 nimmt beobachtbare Grolien liber den Zustand 
xt wahr 202 und trifft eine Entscheidung uber eine Aktion 
203, mit der er auf das System 201 einwirkt. Das System 201 
35 unterliegt ublicherweise einer Storung 205. 



Ferner erhalt der Beobachter 200 einen Gewinn. rt 204 
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rt = r(xt, at, xt + i) € « , 



(1) 



der von der Aktion at 203 und dem ursprunglichen Zustand xt 
zu dem Zeitpunkt t sowie dem Folgezustand xt+i des Systems zu 
dem Folgezeitpunkt t+1 abhangt, 

Der Gewinn rt kann einen positiven oder negativen skalaren 
Wert annehmen, je nachdem, ob die Entscheidung zu einer hin- 
sichtlich eines vorgebbaren Kriteriums positiven oder negati- 
ven Systementwicklung fuhrt, in [1] zu einer Kapitalvermeh- 
rung oder zu einem Verlust. 

In einem weiteren Zeitschritt entscheidet sich der Beobachter 
200 des Systems 201 aufgrund der beobachtbaren GroBen 202, 
204 des Folgezustandes xt+i fiir eine neue Aktion at + i usw, 

Eine Folge von 



Zustand: 


^t 




X 


Aktion: 


^t 




A(xt) 


Folgezustand: 


xt + 1 




X 


Gewinn 


= r(xt, at, xt+i) 


G 


9? 



usw. beschreibt eine Trajektorie des Systems, die durch ein 
Perf ormanzkriterium, das die einzelnen Gewinne rt liber die 
Zeitpunkte t akkumuliert, bewertet wird. Bei einem Markov- 
Entscheidungsproblem wird vereinf achend angenommen, dafi der 
Zustand xt und die Aktion at alle Inf ormationen enthalten, um 
eine Obergangswahrscheinlichkeit p(xt + i|") des Systems von dem 

Zustand xt zu dem Folgezustand xt+i zu beschreiben. 



Formal bedeutet dies: 



p(^t + l|^t^K: ,xo,at,K , ao) = p(xt +i|xt r at ) . 



(2) 
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3 

Mit p(xt + i|xt/ at) wird eine Obergangswahrscheinlichkeit far 

den Folgezustand xt+i bei gegebenem Zustand xt und gegebener 
Aktion at bezeichnet. 

Bei einem Markov-Entscheidungsproblem hangen also zukunftige 
Zustande des Systems 201 nicht von Zustanden und Aktionen ab 
die weiter als einen Zeitschritt in der Vergangenheit liegen 

Zusammenfassend sind im weiteren die Charakteristika eines 
Mar kov-Entscheidungsproblems dargestellt : 

Menge der moglichen Zustande des Systems, 
z.B. X = 5R"^, 

Menge der moglichen Aktionen in dem Zu- 
stand 

Gewinn mit Erwartungswert R(xt, at) . 

Das Ziel ist es, ausgehend von beobachtbaren GroJien, den im 
weiteren als Trainingsdaten bezeichneten Grolien, eine Strate- 
gic zu ermitteln, d.h. eine Folge von Funktionen 

^ = {^0' Ml^K , ^T}/ (3) 

welche zu jedem Zeitpunkt t jeden Zustand in eine Handlungs- 
vorschrift, d.h. Aktion 

^ti^t) = at (4) 
abbilden . 

Eine solche Strategic wird durch eine Optimierungsf unktion 
bewertet . 



X 

A(xt) 

P(xt + l|xt/ at) 
r(xt, at, xt + i) 
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m 



4 

Die Optimierungsfunktion gibt den Erwartungswert , der uber 
die Zeit akkumulierten Gewinne bei einer gegebenen Strategic 
7t und einem Start zustand xq an. 

Als ein Beispiel eines Verfahrens des approximativen dynami- 
schen Programmierens ist in [1] das sogenannte Q- 
Lernverf ahren beschrieben. 

Eine optimale Bewertungsf unktion V* (x) ist def iniert durch 
V*(x) = max V^(x) Vx e X (5) 

71 



mit 



00 



V'^(x) = E 2;y^r(xt,Mt.xt+i)|xo = x 
.t = 0 



(6) 



wobei mit y ein vorgebbarer Verringerungsf aktor bezeichnet 
wird, der gemali folgender Vorschrift gebildet wird: 



Y = 



1 + z 



(7) 



z e 5R' 



(8) 



Im Rahmen des Q-Lernverf ahrens wird ftir jedes Paar 
(Zustand xt, Aktion at) eine Q-Bewertungsf unktion Q*(xt/ a^) 
gemaii folgender Vorschrift gebildet: 

Q*(xt, at) = 2 p(xt + lht' at) • ^t + 

xeX 

+Y • 2 pH^t'^t)- max(Q*(x, a)) 



X eX 



a eA 



(9) 
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Aufgrund jeweils des Tupels (xt , xt + i, at , rt) warden die Q- 
Werte Q*(x,a) in der k+1 ten Iteration gemali folgender Lern- 
regel mit einer vorgegebenen Lernrate t|]^ gemafi folgender Vor- 
schrift adaptiert: 

QkH-l(xt/ at) = (l - r|k)Qk(xt, at) + ti^ rt + y max(Qk(xt + i, a))l . (10) 

^ a€A V 



Oblicherweise werden die sogenannten Q-Werte Q*(x,a) durch 
jeweils einen Funktionsapproximator, beispielsweise ein neu- 
ronales Netz oder auch einen Polynomklassif ikator , mit einem 
Gewichtsvektor w , der Gewichte des Funktionsapproximators 
enthalt, fiir verschiedene Aktionen a approximiert . 

Unter einem Funktionsapproximator ist beispielsweise ein neu- 
ronales Netz, ein Polynomklassif ikator oder auch eine Kombi- 
nation eines neuronalen Netzes mit einem Polynomklassif ikator 
zu verstehen. 

Es gilt also: 
Q*(x, a) « Q^x; w^j . 

Anderungen der Gewichte in dem Gewichtsvektor w^ basieren auf 
einer temporaren Differenz dt^ die gemafi folgender Vorschrift 
gebildet wird: 

<^t' = ^xt, at, xt + i) + Y max ofxt + i; wj) - ofxt; wj^ J (12) 

aeA ^ ^ ^ 

Es ergibt sich fiir das Q-Lernverf ahren unter Verwendung eines 
neuronalen Netzes folgende Adaptionsvorschrif t fur die Ge- 
wichte des neuronalen Netzes, welche Gewichte in dem Ge- 
wichtsvektor w enthalten sind: 
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+ 1 = ^k^ + • dt • VQ(^xt; w^t^ ^ (^3j 



Unter Verwendung der Trainingsdaten, die als Zeitreihenwerte 
Informationen liber vorangegangene Kursverlaufe eines Finanz- 
marktes beschreiben, wird das neuronale Netz, welches das Sy- 
stem Finanzmarkt, wie in [1] beschrieben, darstellt, trai- 
niert. 

Ein weiteres Verfahren der approximativen dynamischen Pro- 
grammierung, das sogenannte TD (A.) -Lernverf ahren, ist aus [2] 
bekannt und wird im Zusammenhang mit einem Ausf iihrungsbei- 
spiel naher erlautert, 

Ferner ist aus [3] bekannt, welches Risiko mit einer Strate- 
gie 71 und einem Ausgangszustand xt verbunden ist. Ein Verfah- 
ren zur Risikovermeidung ist ebenfalls aus [3] bekannt. 

Bei dem aus [3] bekannten Verfahren wird folgende Optimie- 
rungsfunktion, welche auch als erweiterte Q-Funktion 
Q^(xtf at) bezeichnet wird, verwendet: 



maximiere 
r 



Q^(5«t' at) = r(xt, at, xt + i) + inf 

xn,xi,K 

p(xo, XI, k)>0 



00 



Z vM^k' ^(xk)/ Xk + i) 
k = l 

(14) 



Die erweiterte Q-Funktion Q^(xtf at) beschreibt den schlechte- 
sten Fall, falls in dem Zustand xt die Aktion at ausgefiihrt 
wird und die Strategie n daraufhin verfolgt wird. 



Die Optimierungsfunktion Q^(xt, at) fur 
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Q*(xt/ at): = max Q^(xt, at) 



7t en 



(15) 



ist gegeben, durch folgende Vorschrift: 



Q*(xt, at) = 




r(xt, at, x) + y - 



max Q*(x, a) . (16) 
aeA J 



Ein erheblicher Nachteil dieser Vorgehensweise ist darin zu 
sehen, daB nur der schlechteste Fall im Rahmen der Strategie- 
findung berucksichtigt wird. Dies spiegelt jedoch die Anfor- 
derungen verschiedenster technischer Systeme nur in unzurei- 
chendem AusmaB wieder. 

Aus [4] ist es ferner bekannt, eine Zugangskontrolle fur ein 
Kommunikationsnetz sowie das Routing innerhalb des Kommunika- 
tionsnetzes als ein Problem der dynamischen Programmierung zu 
f ormulieren . 

Somit liegt der Erfindung das Problem zugrunde, ein Verfahren 
sowie eine Anordnung zur Ermittlung einer Folge von Aktionen 
ftir ein System anzugeben, bei dem bzw. bei der eine erhohte 
Flexibilitat bei der Ermittlung der Strategic erreicht wird. 

Das Problem wird durch das Verfahren sowie durch die Anord- 
nung gemaft den Merkmalen der unabhangigen Patentanspruche ge- 
lost . 

Bei einem Verfahren zur rechnergestatzten Ermittlung einer 
Folge von Aktionen fiir ein System, welches Zustande aufweist, 
wobei ein Zustandsiibergang zwischen zwei Zustanden aufgrund 
einer Aktion erfolgt, erfolgt die Ermittlung der Folge von 
Aktionen derart, dali eine aus der Folge von Aktionen resul- 
tierende Folge von Zustanden hinsichtlich einer vorgegebenen 
Optimierungsf unktion optimiert ist, wobei die Optimierungs- 
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funktion einen variablen Parameter enthalt, mit dem ein Risi- 
ko, welches die resultierende Folge von Zustanden hinsicht- 
lich eines vorgegebenen Zustandes des Systems aufweist, ein- 
stellbar ist. 

Eine Anordnung zur Ermittlung einer Folge von Aktionen fiir 
ein System, welches Zustande aufweist, wobei ein Zu- 
standsubergang zwischen zwei Zustanden aufgrund einer Aktion 
erfolgt, weist einen Prozessor auf, der derart eingerichtet 
ist, dali die Ermittlung der Folge von Aktionen derart erfol- 
gen kann, dafi eine aus der Folge von Aktionen resultierende 
Folge von Zustanden hinsichtlich einer vorgegebenen Optimie- 
rungsfunktion optimiert ist, wobei die Optimierungsf unktion 
einen variablen Parameter enthalt, mit dem ein Risiko, wel- 
ches die resultierende Folge von Zustanden hinsichtlich eines 
vorgegebenen Zustandes des Systems auf weist, einstellbar ist. 

Durch die Erfindung wird es erstmals moglich, in frei vorgeb- 
barer Genauigkeit im Rahmen einer Strategief indung fiir eine 
moglichen Regelung oder Steuerung, allgemein einer Beeinflus- 
sung des Systems, ein Verfahren zur Ermittlung einer Folge 
von Aktionen anzugeben. 

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den 
abhangigen Anspruchen. 

Die im weiteren beschriebenen Weiterbildungen gelten sowohl 
fur das Verfahren als auch die Anordnung, wobei bei der Wei- 
terbildung der Anordnung jeweils der Prozessor derart einge- 
richtet ist, dafi die Weiterbildung realisierbar ist. 

In einer bevorzugten Ausgestaltung wird zur Ermittlung ein 
Verfahren des approximativen dynamischen Programmierens ein- 
gesetzt, beispielsweise ein auf dem Q-Lernen basierendes Ver- 
fahren Oder auch ein auf dem TD(X)-Lernen basierendes Verfah- 
ren. 
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Im Rahmen des Q-Lernens wird bevorzugt die Optimierungsf unk- 
tion OFQ gemali folgender Vorschrift gebildet: 

OFQ = q(x; w^) , 
wobei mit 

• X ein Zustand in einem Zustandsraum X, 

• a eine Aktion aus einem Aktionsraum A, 

a 

• w die zur Aktion a gehorigen Gewichte eines Funktions- 
approximators 

bezeichnet wird/werden. 

Im Rahmen des Q-Lernens wird zur Ermittlung der optimalen Ge- 
wichte w des Funktionsapproximators folgender Adaptions- 
schritt ausgef uhrt : 

^t + 1 = ^t^ + nt • ^'^(clt) • VQ(xt; wt^) 
mit der Abkiirzung 

dt = r(xt, at, xt + i) + Y max Qfxt + l. w^) - Qfxt, w^^ ] 

aeA ' ^ ^ 

wobei mit 

• ^t/ 5ct+l jeweils ein Zustand in dem Zustandsraum X, 

• at eine Aktion aus einem Aktionsraum A, 

• y ein vorgebbarer Verringerungsf aktor, 

at 

• wt der zur Aktion at gehorige Gewichtsvektor vor dem Ad- 
apt ionsschritt , 

at 

• ^t+1 Aktion at gehorige Gewichtsvektor nach dem 
Adapt ionsschritt, 

• ^t (t = 1, ...) eine vorgebbare Schrittweitenf olge. 
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• K € [-1; 1] ein Risikokontrollparameter, 

• eine Risikokontrollf unktion X^(^) = (l - Ksign(4))^ , 

• Vq(-;-) die Ableitung des Funktionsapproximators nach seinen 
Gewichten, 

5 • r(xt, at, xt + i) ein Gewinn beim Zustandsubergang von dem Zu- 
stand xt nach dem Folgezustand xt+i, 

bezeichnet wird/werden. 

10 Im Rahmen des TD (X) -Lernverf ahrens wird die Optimierungsf unk- 
tion bevorzugt gemafi folgender Vorschrift gebildet: 

OFTD = j(x; w) 
15 wobei mit 

• X ein Zustand in einem Zustandsraum X, 

• a eine Aktion aus einem Aktionsraum A, 

• w die Gewichte eines Funktionsapproximators 



20 



30 



bezeichnet wird/werden. 



Im Rahmen des TD (A,) -Lernens wird zur Ermittlung der optimalen 
Gewichte w des Funktionsapproximators folgender Adaptions- 
25 schritt ausgefiihrt: 

wt + 1 = wt + Tit • ^^(dt) • zt 
mit den Abkiirzungen 

dt = r(wt, at, xt + i) + Yj(xt + i; wt) - j(xt; wt), 
zt = • y ' zt_i + Vj(xt; Wt), 



35 



z«l = 0, 
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wobei mit 

• xt, xt+i jeweils ein Zustand in dem Zustandsraum X, 

• at eine Aktion aus einem Aktionsraum A, 

• Y ein vorgebbarer Verringerungsf aktor, 

• wt der Gewichtsvektor vor dem Adaptionsschritt , 

• wt+1 der Gewichtsvektor nach dem Adaptionsschritt, 
•lit (t = 1, eine vorgebbare Schrittweitenf olge, 

• K € [-1; 1] ein Risikokontrollparameter, 

• eine Risikokontrollf unktion ^^{^) = (l - Ksign(4))^, 

• Vj(-;') die Ableitung des Funktionsapproximators nach seinen 
Gewichten, 

• r(xt, atr xt + i) ein Gewinn beim Zustandsubergang von dem Zu- 
stand xt nach dem Folgezustand xt+i, 

bezeichnet wird/werden . 

Das System ist bevorzugt ein technisches System, von dem vor 
der Ermittlung Meligrofien gemessen werden, die bei der Ermitt- 
lung der Folge von Aktionen verwendet werden. 

Unter Verwendung der ermittelten Folge von Aktionen kann das 
technische System gesteuert Oder auch geregelt werden. 

Bevorzugt wird das System als ein Markov-Entscheidungsproblem 
modelliert . 

Das Verfahren Oder die Anordnung werden bevorzugt in einem 
Verkehrsleitsystem oder in einem Kommunikationssystem einge- 
setzt, wobei in dem Kommunikationssystem die Folge von Aktio- 
nen zur Durchfuhrung einer Zugangskontrolle oder eines Rou- 
tings, also einer Pfadvergabe, in einem Kommunikationsnetz 
eingesetzt wird. 

Ferner kann das System ein Finanzmarkt sein, welcher durch 
ein Markov-Entscheidungsproblem modelliert wird und wobei der 
Verlauf des Finanzmarkts , beispielsweise ein Verlauf eines 
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Aktienindex oder auch ein Kursverlauf eines Devisenmarktes 
unter Verwendung der Verfahren bzw, der Anordnung analysiert 
und in den Markt entsprechend der Folge ermittelter Aktionen 
eingegriffen werden kann. 

Ausfiihrungsbeispiele der Erfindung sind in den Figuren darge- 
stellt und werden im weiteren naher erlautert. 

Es zeigen 

Figur 1 ein Ablauf diagramm, in dem einzelne Verf ahrensschrit- 
te des ersten Ausf tihrungsbeispiels dargestellt sind; 

Figur 2 eine Skizze eines Systems, welches als Markov- 
15 Entscheidungsproblem modelliert werden kann; 

Figur 3 eine Skizze eines Kommunikationsnet zes, bei dem in 
einer Vermittlungseinheit eine Zugangskontrolle 
durchgef uhrt wird; 

20 

Figur 4 eine symbolische Skizze eines Funktionsapproximators , 
mit dem ein Verfahren des approximativen dynamischen 
Programmierens realisiert wird; 

25 Figur 5 eine weitere Skizze von mehreren Funktionsapproxi- 

matoren, mit dem ein approximatives dynamisches Pro- 
grammieren implementiert wird; 



30 



Figur 6 eine Skizze eines Verkehrsleitsystems, welches gemafi 
einem Ausf iihrungsbeispiel geregelt wird- 
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Erstes Aus fiihrungsbei spiel : Zugangskontrolle und Routing. 

Fig. 3 zeigt ein Kommunikationsnetz 300, welches eine Vielzahl 
von Vermittlungseinheiten 301a, 301b, 3011, ... 301n 

aufweist, die tiber Verbindungen 302a, 302b, 302 j, ... 302m 
miteinander verbunden sind. 

Ferner ist ein erstes Endgerat 303 mit einer ersten Vermitt- 
lungseinheit 301a verbunden. Von dem ersten Endgerat 303 wird 
eine Anf orderungsnachricht 304 an die erste Vermittlungsein- 
heit 301a gesendet, mit der eine Reservierung einer vorgege- 
benen Bandbreite innerhalb des Kommunikationsnetzes 300 zur 
Ubertragung von Daten (Videodaten, textuelle Daten) angefor- 
dert wird. 

In der ersten Vermittlungseinheit 301a wird gemafi einer im 
weiteren beschriebenen Strategie ermittelt, ob die angefor- 
derte Bandbreite in dem Kommunikationsnetz 300 auf einer an- 
gegebenen, angef orderten Verbindung verfiigbar ist 
(Schritt 305) . 

Ist dies nicht der Fall, so wird die Anforderung zuruckgewie- 
sen (Schritt 306) . 

Ist ausreichend Bandbreite verfugbar, so wird in einem weite- 
ren Oberprufungsschritt (Schritt 307) uberpriift, ob die Band- 
breite reserviert werden kann. 

Ist dies nicht der Fall, so wird die Anforderung zuruckgewie- 
sen (Schritt 308) . 

Sonst wird von der ersten Vermittlungseinheit 301a eine Route 
von der ersten Vermittlungseinheit 301a uber weitere Vermitt- 
lungseinheiten 301i zu einem zweiten Endgerat 309, mit dem 
das erste Endgerat 303 kommunizieren will, ausgewahlt und es 
wird eine Verbindung initialisiert (Schritt 310) . 
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Im folgenden wird von einem Kommunikationsnetz 300 ausgegan- 
gen, welches einen Satz von Vermittlungseinheiten 



N= {l,K ,n,K ,n} 

und einen Satz von physikalischen Verbindungen 



(17) 



L= {l,K ,1,K 



(18) 



umfafit, wobei eine physikalische Verbindung 1 eine Kapazitat 
von B(l) Bandbreiteneinheiten aufweist. 

Es sind ein Satz 



• einen Gewinn c (m) , den man dann erhalt, wenn eine Verbin- 
dungsanforderung des entsprechenden Diensttyps m akzeptiert 
wird, 

charakterisiert ist . 

Der Gewinn c(m) ist gegeben durch die Menge des Geldes, die 
ein Netzwerkbetreiber des Konununikationsnet zes 300 einem 
Teilnehmer fur eine Verbindung des Diensttyps in Rechnung 
stellt. Anschaulich spiegelt der Gewinn c (m) unterschiedli- 
che, von dem Netzbetreiber vorgebbare Prioritaten wider, die 
er mit verschiedenen Diensten assoziiert. 

Eine physikalischen Verbindung 1 kann gleichzeitig eine be- 
liebige Kombination von Kommunikationsverbindungen bereit- 
stellen, solange die genutzte Bandbreite der Kommunikations- 
verbindungen nicht die insgesamt verfiigbare Bandbreite der 
physikalischen Verbindung libersteigt. 



M= {l, K , m, K , m} 



(19) 



verschiedener Diensttypen m verftigbar, wobei ein Diensttyp m 
durch 

• einen Bandbreitenbedarf b (m) , 

• eine durchschnittliche Verbindungsdauer — 7^- / und 



v(m) 
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Wird eine neue Kommunikationsverbindung des Typs m angefor- 
dert zwischen einem ersten Knoten i und einem zweiten Knoten 
j (Endgerate warden auch als Knoten bezeichnet) , so kann die 
angeforderte Kommunikationsverbindung, wie oben dargestellt, 
entweder akzeptiert oder zuruckgewiesen werden. 

Wird die Kommunikationsverbindungen akzeptiert, so wird eine 
Route aus einer Menge vorgegebener Routen ausgewahlt. Diese 
Auswahl wird als Routing bezeichnet. Im Rahmen der Kommunika- 
tionsverbindung vom Typ m werden b (m) Bandbreiteneinheiten 
fur jede physikalische Verbindung entlang der ausgewahlten 
Route fur die Verbindungsdauer benutzt. 

Somit kann im Rahmen der Zugangskontrolle (Call-Admission- 
Control) eine Route innerhalb des Kommunikationsnetzes 300 
nur ausgewahlt werden, wenn die ausgewahlte Route ausreichend 
Bandbreite zur Verfugung hat. 

Ziel der Zugangskontrolle und des Routings ist es, einen 
langf ristigen Gewinn, der durch Akzeptanz der angef orderten 
Verbindungen erhalten wird, zu maximieren. 

Das technische System Kommunikationsnetz 300 befindet sich zu 
einem Zeitpunkt t in einem Zustand x^, welcher durch eine Li- 
ste von Routen iiber bestehende Verbindungen beschrieben wird, 
durch welche Listen angezeigt ist, wie viele Verbindungen 
welchen Diensttyps zu dem Zeitpunkt t die jeweilige Route 
verwenden. 

Ereignisse w, durch die ein Zustand x^ in einen Folgezustand 
xt+i liberfuhrt werden konnte, sind das Ankommen neuer Verbin- 
dungsanf orderungsnachrichten oder auch das Beenden einer in 
dem Kommunikationsnetz 300 bestehenden Verbindung. 

Eine Aktion a^ zu einem Zeitpunkt t aufgrund einer Verbin- 
dungsanforderung ist in diesem Ausf iihrungsbeispiel die Ent- 
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scheidung^ ob eine Verbindungsanf orderung akzeptiert oder zu- 
ruckgewiesen werden soil und, falls die Verbindung akzeptiert 
wird, die Auswahl der Route durch das Kommunikationsnetz 300. 

Ziel ist die Ermittlung einer Folge von Aktionen, d.h. an- 
schaulich das Lernen einer Strategie mit Aktionen zu einem 
Zustand zu bestimmen derart, dali folgende Vorschrift maxi- 
miert wird: 



bunden ist, und 
• p ein Verringerungsfaktor, der einen sofortigen Gewinn 

wertvoller bewertet als ein Gewinn in ferner in der Zukunft 
liegenden Zeitpunkten, 

bezeichnet wird. 

Unterschiedliche Realisierungen einer Strategie fiihren ubli- 
cherweise zu unterschiedlichen Gesamtgewinnen G: 




(20) 



wobei mit 





00 



(21) 



Ziel ist die Maximierung des Erwartungswerts des Gesamtge- 
winns G gemali folgender Vorschrift J: 
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lk = 0 



(22) 



wobei ein Risiko, dafi der Gesamtgewinn G einer speziellen 
Realisierung einer Zugangskontrolle und einer Routing- 
Strategie unter den Erwartungswert sinkt, einstellbar ist. 

Zur Durchfuhrung der Zugrif f skontrolle sowie zum Routing wird 
das TD {X} -Lernverf ahren eingesetzt . 

Es wird folgende Zielfunktion im Rahmen dieses Ausfuhrungs- 
beispiels eingesetzt : 



wobei mit 

• A ein Aktionsraum mit einer vorgegebenen Anzahl Aktionen, 
die in einem Zustand jeweils zur Verfugung stehen, 

• T ein erster Zeitpunkt, zudem ein erstes Ereignis cd er- 
folgt, 

• ^t+1 Folgezustand des Systems, 
bezeichnet wird. 

Ein approximierter Wert des Zielwerts J*(xt) wird unter Ver- 
wendung eines Funktionsapproximators 4 00 (vgl. Fig , 4 ) unter 
Verwendung von Trainingsdaten gelernt und gespeichert, 

Trainingsdaten sind zuvor in dem Kommunikationsnetz 300 ge- 
messene Daten uber das Verhalten des Kommunikationsnetzes 300 
bei ankommenden Verbindungsanf orderungen 304 sowie bei Been- 
digung von Nachrichten. Diese zeitliche Folge von Zust^nden 
wird gespeichert und mit diesen Trainingsdaten wird der Funk- 
tionsapproximator 4 00 gemafi dem im weiteren beschriebenen 
Lernverf ahren trainiert . 




(23) 
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Als EingangsgroUe des Funktionsapproximators 400 dienen fur 
jeden Eingang 401, 402, 403 des Funktionsapproximators 400 
jeweils eine Anzahl von Verbindungen jeweils eines Diensttyps 
m auf einer Route des Kommunikationsnetzes 300. Diese sind in 
Fig. 4 durch Blocke 404, 405, 406 symbolisch dargestellt. 

Ausgangsgrofle des Funktionsapproximators 400 ist ein approxi- 
mierter Zielwert J des Zielwerts J . 

Eine detailliertere Darstellung des Funktionsapproximators 
500, welcher in diesem Fall mehrere Teil- 

Funktionsapproximatoren 510, 520 des Funktionsapproximators 
500 aufweist, zeigt Fig . 5 . Eine Ausgangsgrolie ist der 
approximierte Zielwert J, der gemafi folgender Vorschrift ge- 
bildet wird: 



Die Eingangsgrolien der Teilf unktionsapproximatoren 510, 520, 
die an Eingangen 511, 512, 513 des ersten Teil- 
Funktionsapproximators 510 bzw. an Eingangen 521, 522 und 523 
des zweiten Teilf unktionsapproximators 520 anliegen, sind 
wiederum jeweils eine Anzahl von Diensttypen eines Typs m je- 
weils in einer physikalischen Verbindung r, symbolisiert 
durch Blocke 514, 515, 516 fur den ersten Teil- 
Funktionsapproximator und 524, 525 und 52 6 fur den zweiten 
Teil-Funktionsapproximator 520. 

Teilausgangsgrolien 530, 531, 532, 533 werden einer Addierein- 
heit 54 0 zugefiihrt und als Ausgangsgrolie der Addiereinheit 
wird die approximierte Zielgrofie J gebildet. 

Angenommen, das Kommunikationsnetz 300 befindet sich in dem 
Zustafid xtj^ und eine Anf orderungsnachricht , mit der ein 

Diensttyp m der Klasse m fiir eine Verbindung zwischen zwei 




1 = 1 



(24) 
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Knoten i, j angefordert wird, gelangt zu der ersten Verbin- 
dungseinheit 301a. 

Mit R(i, j) wird eine Liste erlaubter Routen zwischen den 
Knoten i und j bezeichnet und mit 

R(i, j, xt^) c R(i, j) (25) 

wird eine Liste aller moglichen Routen als Teilmenge der Rou- 
ten R(i, j) bezeichnet, die hinsichtlich der verfiigbaren und 
angeforderten Bandbreite eine mogliche Verbindung realisieren 
konnten. 

Fur jede mogliche Route r, r e R^i, j, xtj^) wird ein Folgezu- 

stand xtj^ +i(xt,^, ©k, r) ermittelt, der daraus resultiert, dafl 

die Verbindungsanf orderung 304 akzeptiert wird und die Ver- 
bindung auf der Route r dem anfordernden ersten Endgerat 303 
zur Verfiigung gestellt wird. 

Dies ist in Fiq.l als zweiter Schritt (Schritt 102) darge- 
stellt, wobei in einem ersten Schritt (Schritt 101) jeweils 
der Zustand des Systems sowie das jeweilige Ereignis festge- 
stellt werden. 

Es wird in einem dritten Schritt (Schritt 103) eine auszuwah- 
lende Route r* gemSB folgender Vorschrift ermittelt: 

r* = arg max j(xt,^ +l(xtj^ , tB^, rl ©t) . (26) 
reR[i,j,xt^) 

In einem weiteren Schritt (Schritt 104) wird uberpruft, ob 
folgende Vorschrift erfiillt ist: 

c(m) + j(xtj^ + i(xtj^, o>k, r*j, ©t) < j(xt,^, ©t) • (27) 
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1st dies der Fall, so wird die Verbindungsanf orderung 304 zu- 
ruckgewiesen (Schritt 105), sonst wird die Verbindung akzep- 
tiert und entlang der ausgewahlten Route r* zu dem Knoten j 
,,durchgeschaltef (Schritt 106) . 

5 

In einem Parametervektor 0 sind jeweils fur einen Zeitpunkt 
t Gewichte des Funktionsapproximators 400, 500 gespeichert, 
die im Rahmen des TD (X) -Lernverf ahrens an die Trainingsdaten 
adaptiert werden, so dali eine optimierte Zugangskontrolle und 
10 ein optimiertes Routing erreicht wird. 

Wahrend der Trainingsphase werden die Gewichtsparameter an 
die dem Funktionsapproximator angelegten Trainingsdaten ange- 
palit . 

15 

Es wird ein Risikoparameter k definiert, mit dem ein ge- 
wunschtes Risiko, welches durch eine Folge von Aktionen und 
Zustanden hinsichtlich eines vorgegebenen Zustands des Sy- 
stems aufweist, einstellbar ist, gemaiS folgenden Vorschrif- 
20 ten: 

-1 ^ K < 0: risikoreiches Lernen, 

K = 0: hinsichtlich des Risikos ein neutrales Lernen, 

25 

0 < K < 1: ein risiko-vermeidendes Lernen, 

K = 1: „Worst-Case"-Lernen. 

30 Fernen wird im Rahmen des Lernverf ahrens ein vorgebbarer Pa- 
rameter 0 < A, < 1 und eine Schrittweitenf olge yj^ vorgegeben. 

Die Gewichtswerte des Gewichtsvektors 0 werden aufgrund je- 
des Ereignisses cotj^ gemaii folgender Adaptionsvorschrif t an 

35 die Trainingsdaten angepalit: 



©k = ©k-l + Yk^^'CdkK. 



(28) 
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wobei 



dk = e ^k-l)(g(xt^,(Dk,at,^) + j(xtj^,©k-l)) " j(xtk_i . ©k-l) 



zt = X.e-P(^k-l-tk-2)zt_i + V0j(xtj^_^,0k_i), 



(29) 



(30) 



10 



und 



= (l - Ksign(^))^ . 



(31) 



Es wird angenommen : Z-i = 0. 



15 Die Funktion 



(32) 



20 



bezeichnet den sofortigen Gewinn gemafl folgender Vorschrift 



c(m) wenn co^j^ist eine Diens tan f orderung eines 
Diensttyps m und die Verbindung wird 
akzeptiert 

0 sonst 

(33) 



Es wird also, wie oben beschrieben, eine Folge von Aktionen 
25 ermittelt, hinsichtlich einer Verbindungsanf orderung, so dali 
eine Verbindungsanf orderung aufgrund einer Aktion entweder 
zuriickgewiesen oder akzeptiert wird. Die Ermittlung erfolgt 
unter Beriicksichtigung einer Optimierungsf unktion, in der das 
Risiko mittels eines Risikokontrollparameters k g [-1; 1] 
30 variabel einstellbar ist. 
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Zweites Ausf uhrungsbeispiel : Verkehrsleitsystem 

Fig. 6 zeigt eine Strafie 600, die von Autos 601, 602, 603, 
604, 605 und 606 befahren ist. 

In die Stralie 600 integrierte Leiterschleif en 610, 611 nehmen 
elektrische Signale in bekannter Weise auf und fiihren die 
elektrischen Signale 615, 616, einem Rechner 620 uber eine 
Eingangs-ZAusgangsschnittstelle 621 zu. In einem mit der Ein- 
gangs-Musgangsschnittstelle 621 verbundenen Analog-/Digital- 
Wandler 622 werden die elektrischen Signale in eine Zeitreihe 
digitalisiert und in einem Speicher 623, der uber einen Bus 

624 mit dem Analog-/Digital-Wandler 622 und einem Prozessor 

625 verbunden ist, gespeichert. Ober die Eingangs- 
/Ausgangsschnittsstelle 621 werden einem Verkehrsleitsystem 
650 Steuerungssignale 651 zugefiihrt, aus denen in dem Ver- 
kehrsleitsystem 650 eine vorgegebene Geschwindigkeitsvorgabe 
652 einstellbar ist oder auch weitere Angaben von Verkehrs- 
vorschrif ten, die uber das Verkehrsleitsystem 650 Fahrern der 
Fahrzeuge 601, 602, 603, 604, 605 und 606 dargestellt werden. 

Zur Verkehrsmodellierung werden in diesem Fall folgende loka- 
le Zustandsgrofien verwendet: 

• Verkehrsf luflgeschwindigkeit v, 

• Fahrzeugdichte p (p = Anzahl von Fahrzeugen pro Kilome- 



• Verkehrsf luli q (q = Anzahl der Fahrzeuge pro Stunde — , 

h 

(q= v * p) ) , und 

• jeweils zu einem Zeitpunkt von dem Verkehrsleitsystem 650 
angezeigte Geschwindigkeitsbegrenzungen 652. 



Fz 




Fz 



Die lokalen Zustandsgrofien werden wie oben beschrieben unter 
Verwendung der Leiterschleif en 610, 611 gemessen. 
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Somit stellen diese GroBen (v(t), p(t), q(t)) einen Zustand 
des technischen Systems "Verkehr" zu einem bestimmten Zeit- 
punkt t dar. 

5 In diesem Ausf iihrungsbeispiel ist somit das System ein Ver- 
kehrssystem, welches unter Verwendung des Verkehrsleitsystems 
650 geregelt wird. 

Als Verfahren des approximativen dynamischen Programmierens 
10 wird in diesem zweiten Ausf uhrungsbeispiel ein erweitertes Q- 
Lernverf ahren beschrieben . 

Der Zustand wird beschrieben durch einen Zustandsvektor 
1 5 x(t> = ( v(t> p(t> q(t)) . (34) 

Die Aktion at bezeichnet die Geschwindikeitsbegrenzung 652, 
die zum Zeitpunkt t von dem Verkehrsleitsystem 650 angezeigt 
wird. 



20 



25 



30 



35 



Der Gewinn r(xt , at , x^ + 1) beschreibt die Giite des Verkehrs- 
flusses, der zwischen den Zeitpunkten t und t+1 von den Lei- 
terschleifen 610 und 611 gemessen wurde. Im Rahmen dieses 
zweiten Ausf uhrungsbeispiels bezeichnet r(xtr atf xt + i) 

• die mittlere Geschwindigkeit der Fahrzeuge im Zeitintervall 
[t, t + 1], 

Oder 

• die Anzahl der Fahrzeuge, die im Zeitintervall [t, t+1] 
die Leiterschleif en 610 und 611 passiert haben, 

Oder 

• die Varianz der Fahrzeuggeschwindigkeiten im Zeitintervall 
[t, t + 1], 
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Oder 



• eine gewichtete Suinine aus den obigen Grolien. 

5 

Fur jede mogliche Aktion at^ d.h. fiir jede von dem Verkehrs- 
leitsystem 650 anzeigbare Geschwindigkeitsbegrenzung, wird 
ein Wert der Optimierungsf unktion OFQ ermittelt, wobei je- 
weils ein geschatzter Wert der Optimierungsf unktion OFQ als 
10 neuronales Netz realisiert wird. 

Aus diese Weise ergibt sich eine Menge von Bewertungsgrolien 
fiir die unterschiedlichen Aktionen at in dem Systemzustand 

15 

In einer Regelungsphase wird aus den moglichen Aktionen at/ 
d*h. aus der Menge der von dem Verkehrsleitsystem 650 anzeig- 
baren Geschwindigkeitsbegrenzungen, diejenige Aktion at aus- 
gewahlt, fur die in dem aktuellen Systemzustand xt die maxi- 
2 0 male Bewertungsgrolie OFQ ermittelt worden ist. 

Die aus dem Q-Lernverf ahren bekannte Adaptionsvorschrif t zur 
Berechnung der Optimierungsf unktion OFQ wird gemafi diesem 
Ausfiihrungsbeispiel um eine Risikokontrollf unktion X^O / die 
25 das Risiko berucksichtigt , erweitert. 

Wiederum wird der Risikokontrollparameter k gemali der Strate- 
gie aus dem ersten Ausfiihrungsbeispiel im Intervall von 
[-1 ^ K < 1] vorgegeben und reprasentiert das Risiko, das ein 
30 Benutzer im Rahmen der Anwendung hinsichtlich der zu bestim- 
menden Kontrollstrategie eingehen will. 

Gemali diesem Ausfiihrungsbeispiel wird folgende Bewertungs- 
f unktion OFQ verwendet : 

35 




(35) 
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wobei mit 

• X = (v; p; q) ein Zustand des Verkehrssystems, 

5 • a eine Geschwindigkeitsbegrenzung aus dem Aktionsraum A al 

ler vom Verkehrsleitsystem 650 anzeigbaren Geschwindig- 

keitsbegrenzungen, 
a 

• w die zur Geschwindigkeitsbegrenzung a gehorigen Gewichte 
des neuronalen Netzes, 

10 

bezeichnet wird/werden. 

Im Rahmen des Q-Lernens wird zur Ermittlung der optimalen Ge 
a 

wichte w den neuronalen Netzes folgender Adaptionsschritt 
15 ausgefiihrt: 

^t + 1 = ^t^ + • ^"^M ' VQ(xt; wt^) (36) 
mit der Abkiirzung 

20 

dt = r(xt, at, xt + i) + y max olxt + i, w^) - of xt, w^^ J (37) 

aeA ^ ^ ^ ^ 

wobei mit 

25 • xtf xt+i jeweils ein Zustand des Verkehrssystems gemafi Vor 
schrift (34) , 

• at eine Aktion, d.h. eine von dem Verkehrsleitsystem 650 
anzeigbare Geschwindigkeitsbegrenzung, 

• y ein vorgebbarer Verringerungsf aktor , 

at 

30 • wt der zur Aktion at gehorige Gewichtsvektor vor dem Ad- 
aptionsschritt, 
at 

• w^":^]^ Aktion at gehorige Gewichtsvektor nach dem 
Adaptionsschritt, 

• "Ht (t = 1, ...) eine vorgebbare Schrittweitenf olge. 
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• K € [-1; 1] ein Risikokontrollparameter, 

• eine Risikokontrollfunktion K^(^) = (l - Ksign(^))^, 

• Vq(-;-) die Ableitung des neuronalen Netzes nach seinen Ge- 
wichten, 

• ^(^t' ^t' + l) Gewinn beim Zustandsubergang von dem Zu- 
stand xt nach dem Folgezustand xt+i, 

bezeichnet wird/werden. 

Im Rahinen des Lernens kann aus den moglichen Aktionen at eine 
Aktion at zufallig gewahlt werden^ Hierbei ist es nicht er- 
forderlich, die Aktion at, die zu der grofiten BewertungsgrolJe 
gefiihrt hat, zu wahlen. 

Die Adaption der Gewichte hat derart zu erfolgen, daB nicht 
nur eine im Erwartungswert der Optimierungsf unktion optimier- 
te Regelung des Verkehrs erreicht wird, sondern auch eine Va- 
rianz der Regelungsergebnisse berucksichtigt wird. 

Dies ist insbesondere vorteilhaft, da der Zustandsvektor x(t) 
das tatsachliche System Verkehr in einigen Aspekten nur unzu- 
reichend modelliert und es deshalb zu nicht erwarteten Sto- 
rungen kommen kann. So hangt die Dynamik des Verkehrs und da- 
mit seiner Modellierung von weiteren Faktoren wie beispiels- 
weise Wetter, Anteil an Lastkraf twagen auf der Stralie, ein 
Anteil von Wohnmobilen, etc. ab, die nicht immer in den MeB- 
groiSen des Zustandsvektors x(t) integriert sind. Zudem ist 
nicht immer sichergestellt , dali die Verkehrsteilnehmer sofort 
den neuen Geschwindigkeitsangaben gemaJi dem Verkehrsleitsy- 
stem Folge leisten. 

Eine Regelungsphase an dem realen System gemafi dem Verkehrs- 
leitsystem vollzieht sich gemaii folgenden Schritten: 

l.Das Messen des Zustandes xt zum Zeitpunkt t erfolgt an ver- 
schiedenen Stellen des Verkehrssystems Verkehr und ergibt 
einen Zustandsvektor x(t) = (v(t)t p(t), q(t)) • 
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2. Fur alle moglichen Aktionen at wird ein Wert der Optimie 
rungsfunktion ermittelt und es wird diejenige Aktion at 
der hochsten Bewertung in der Optimierungsf unktion ausge 
wahlt. 



GR 98 P 2663 



28 
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[1] R. Neuneier, Enhancing Q-Learning for Optimal Asset Al- 
location, Proceedings of the Neural Information Proces- 
sing Systems, NIPS 1997 

[2] R.S. Sutton, Learning to predict by the method of tempo- 
ral differences. Machine Learning, 3:9-44, 1988 

[3] M. Heger, Risk and Reinforcement Learning: Concepts and 
Dynamic Programming, ZKW Bericht Nr. 8/94, Zentrum fur 
Kognitionswissenschaf ten, Universitat Bremen, ISSN 0947- 
0204, Dezember 1994 

[4] D.P. Bertsekas, Dynamic Programming and Optimal Control, 
Athena Scientific, Belmont, MA, 1995 
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Paten tanspriiche 

1. Verfahren zur rechnergesttitzten Ermittlung einer Folge von 
Aktionen fur ein System, welches Zustande aufweist, wobei ein 
5 Zustandsubergang zwischen zwei Zustanden aufgrund einer Akti- 
on erfolgt, 

bei dem die Ermittlung der Folge von Aktionen derart erfolgt, 
dafi eine aus der Folge von Aktionen resultierende Folge von 
Zustanden hinsichtlich einer vorgegebenen Optimierungsf unkti- 
10 on optimiert ist, wobei die Optimierungsf unktion einen varia- 
blen Parameter enthalt, mit dem ein Risiko, welches die re- 
sultierende Folge von Zustanden hinsichtlich eines vorgegebe- 
nen Zustandes des Systems aufweist, einstellbar ist. 

15 2. Verfahren nach Anspruch 1, 

bei dem zur Ermittlung ein Verfahren des approximativen Dyna- 
mischen Programmierens eingesetzt wird. 

3. Verfahren nach Anspruch 2, 

20 bei dem das Verfahren des approximativen Dynamischen Program- 
mierens ein auf dem Q-Lernen basierendes Verfahren ist. 

4. Verfahren nach Anspruch 3, 

bei dem die Optimierungsf unktion OFQ im Rahmen des Q-Lernens 
25 gemali folgender Vorschrift gebildet wird: 



30 



35 



OFQ = q(x; w^) , 



wobei mit 



• X ein Zustand in einem Zustandsraum X, . 

• a eine Aktion aus einem Aktionsraum A, 

a 

• w die zur Aktion a gehorigen Gewichte eines Funktions- 
approximators 

bezeichnet wird/werden, und bei dem die Gewichte des Funkti- 
onsapproximators gemali folgender Vorschrift adaptiert werden: 
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Tit • ^'^(dt) • Vq[ 



xt; w 




mit der Abkurzung 



dt = r(xtr at, xt + i) + y max q| 



a €A 




Xt, w 




wobei mit 

• Xt, xt+i jeweils ein Zustand in dem Zustandsraum X, 

• at eine Aktion aus einem Aktionsraum A, 

• y ein vorgebbarer Verringerungsf aktor, 

at 

• wt der zur Aktion at gehorige Gewichtsvektor vor dem Ad- 
apt ions schritt, 

at 

• ^t\l Aktion at gehorige Gewichtsvektor nach dem 
Adapt ionsschr it t, 

• ^t (t = 1, ...) eine vorgebbare Schrittweitenf olge, 

• K e [-1; 1] ein Risikokontrollparameter, 

• ti'^ eine Risikokontrollf unktion = (l - Ksign(4))4, 

• Vq(-;-) die Ableitung des Funktionsapproximators nach seinen 
Gewichten, 

• r(xt, at, Xt + i) ein Gewinn beim Zustandsiibergang von dem Zu- 
stand Xt nach dem Folgezustand xt+i, 

bezeichnet wird/werden. 

5. Verfahren nach Anspruch 2, 

bei dem das Verfahren des approximativen Dynamischen Program- 
mierens ein auf dem TD(X)-Lernen basierendes Verfahren ist. 



6. Verfahren nach Anspruch 5, 

bei dem die Optimierungsf unktion OFTD im Rahmen des TD(X.)- 
Lernens gemafi folgender Vorschrift gebildet wird: 
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OFTD = j(x; w) 
wobei mit 

• X ein Zustand in einem Zustandsraum X, 

• a eine Aktion aus einem Aktionsraum A, 

• w die Gewichte eines Funktionsapproximators 

bezeichnet wird/werden, und bei dem die Gewichte des Funkti- 
onsapproximators gemalJ folgender Vorschrift adaptiert werden 

wt + 1 = + Tit • ^^(dt) • 2t 
mit den Abktirzungen 

dt = ^wt, at, xt + i) + Yj(xt + i; wt) - j(xt; wt), 
zt = X • y • zt-i + Vj(xt; Wt), 
z-1 =0, 
wobei mit 

• ^tf ^t+l jeweils ein Zustand in dem Zustandsraum X, 

• at eine Aktion aus einem Aktionsraum A, 

• Y ein vorgebbarer Verringerungsf aktor , 

• Wt der Gewichtsvektor vor dem Adaptionsschritt , 

• wt+i der Gewichtsvektor nach dem Adaptionsschritt, 
•lit (t = 1, ...) eine vorgebbare Schrittweitenf olge, 

• K e [-1; 1] ein Risikokontrollparameter, 

• «^ eine Risikokontrollf unktion K^(^) = (l - Ksign(^))^, 

• Vj(-;-) die Ableitung des Funktionsapproximators nach seinen 
Gewichten, 

• r(xt, at, xt -Hi) ein Gewinn beim Zustandsubergang von dem Zu- 
stand xt nach dem Folgezustand xt+i. 
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bezeichnet wird/werden . 

7. Verfahren nach einem der Ansprtiche 1 bis 6, 

bei dem das System ein technisches System ist, von dem vor 
der Ermittlung MeligroJien gemessen werden, die bei der Ermitt- 
lung der Folge von Aktionen verwendet werden. 

8. Verfahren nach Anspruch 1, 

bei dem gemafi der Folge von Aktionen das technische System 
gesteuert wird. 

9. Verfahren nach Anspruch 7, 

bei dem gemafi der Folge von Aktionen das technische System 
geregelt wird. 

10. Verfahren nach einem der Anspriiche 1 bis 9, 

bei dem das System als ein Markov-Entscheidungsproblem model- 
liert wird. 

11. Verfahren nach einem der Anspruche 1 bis 10, 
eingesetzt in einem Verkehrsleitsystem. 

12. Verfahren nach einem der Anspruche 1 bis 10, 
eingesetzt in einem Kommunikationssystem. 

13. Verfahren nach einem der Anspruche 1 bis 10, 
eingesetzt zur Durchftihrung einer Zugangskontrolle in einem 
Kommunikationsnetz . 

14. Verfahren nach einem der Anspruche 1 bis 10, 
eingesetzt zur Durchfuhrung eines Routings in einem Kommuni- 
kationsnetz . 

15. Anordnung zur Ermittlung einer Folge von Aktionen fur ein 
System, welches Zustande aufweist, wobei ein Zustandsubergang 
zwischen zwei Zustanden aufgrund einer Aktion erfolgt. 
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mit einem Prozessor, der derart eingerichtet ist, daB die Er- 
mittlung der Folge von Aktionen derart erfolgen kann, dal5 ei- 
ne aus der Folge von Aktionen resultierende Folge von Zustan- 
den hinsichtlich einer vorgegebenen Optimierungsf unktion op- 
timiert ist, wobei die Optimierungsf unktion einen variablen 
Parameter enthalt , mit dem ein Risiko, welches die resultie** 
rende Folge von Zustanden hinsichtlich eines vorgegebenen Zu- 
standes des Systems aufweist, einstellbar ist. 

16. Anordnung nach Anspruch 15, 

eingesetzt zur Steuerung eines technischen Systems, 

17. Anordnung nach Anspruch 15, 

eingesetzt zur Regelung eines technischen Systems. 

18. Anordnung nach Anspruch 15, 
eingesetzt in einem Verkehrsleitsystem. 

19. Anordnung nach Anspruch 15, 
eingesetzt in einem Kommunikationssystem. 

20. Anordnung nach Anspruch 15, 

eingesetzt zur Durchfuhrung einer Zugangskontrolle in einem 
Kommunikationsnetz . 

21. Anordnung nach Anspruch 15, 

eingesetzt zur Durchfuhrung eines Routings in einem Kommuni- 
kationsnetz. 
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Zusammenf as sung 

Ver£ahren und Anordnung zur Ermittlung einer Folge von Aktio- 
nen fur e±n System, welches Zustande aufweist, wobex ein 2u- 
standsiibergang zwischen zwei Zustanden aufgrund einer Aktion 
erfolgt 

Die Ermittlung der Folge von Aktionen erfolgt derart, daB ei- 
ne aus der Folge von Aktionen resultierende Folge von Zustan- 
den hinsichtlich einer vorgegebenen Optimierungsf unktion op- 
timiert ist. Die Optimierungsf unktion enthalt einen variablen 
Parameter, mit dem ein Risiko einstellbar ist, welches Risiko 
die resultierende Folge von Zustanden hinsichtlich eines vor- 
gegebenen Zustandes des Systems aufweist. 
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